Vad har vi gjort hittills
- Hittills har vi tittat på
- fördelningar av kategoriska variabler (stapeldiagram)
- fördelningar av numeriska variabler (histogram)
- samband mellan kategoriska variabler (korstabeller)
- Nu är det dags att undersöka hur samband kan se ut mellan en kategorisk och en numerisk variabel.
Repetition
- När vi intresserar oss för kategoriska variabler vill vi oftast veta hur stora olika grupper av observationer är.
- När vi intresserar oss för numeriska variabler kan vi vilja undersöka centralmått som medelvärde och median.
- För numeriska variabler kan vi också vilja undersöka spridningsmått som , standardavvikelse och kvartilavstånd (Inter Quartile Range) (se föreläsning 2).
Numeriska variabler betingade på kategoriska
- När vi vill undersöka sambandet mellan en numerisk variabel och en kategorisk variabel kan vi studera fördelningen av den numeriska variabeln betingat på den kategoriska variabeln.
- Med två kategoriska variabler kan vi ställa frågor som: Hur stor andel av alla BMW-förare kör för fort?
- Med en numerisk och en kategorisk variabel kan vi ställa frågor som: Hur snabbt kör BMW-förare i genomsnitt på en viss vägsträcka? Vi undersöker alltså hastigheten (numerisk variabel) betingat på bilmärket (kategorisk variabel).
Varför betinga numeriska variabler på kategoriska
Figur 4 i De Veaux et al. (2021) visar den dagliga medelvindhastigheter under 2011 i western Massachusetts. För hälften observationerna är vindhastigheten mindre än 1.12 mph. Fördelningen är skev till höger.
![]()
Varför betinga numeriska variabler på kategoriska
Fråga: Är den här fördelningen av vindhastigheter representativ för alla delar av året? Det kan vi vinte veta utifrån detta histogram.
![]()
Varför betinga numeriska variabler på kategoriska
Figur 4.2 i De Veaux et al. (2021) visar medelvindhastigheten separat för två säsonger: vår/sommar och höst/vinter.
![]()
Varför betinga numeriska variabler på kategoriska
- Om vi jämför del fördelningen för hela året kan vi se att det är mindre vind under vår/sommar, och det är fler dagar med mycket vind under höst/vinter.
- Är vi intresserade av vindstyrkan under en viss tid på året ger de betingade fördelningarna en bättre bild än marginalfördelningen. (Från föreläsning 3: Marginalfördelningen är den fördelning av en variabel som inte tar hänsyn till andra variabler).
![]()
Varför betinga numeriska variabler på kategoriska?
- Vi har nu sett att vi får en bättre bild av vindstyrkan om vi betingar variabeln på säsong.
- Vi kan få en ännu bättre bild av vindstyrkan om vi bryter ned observationerna i 12 månadsgrupper istället för bara två säsonger.
- Men hur ska vi illustrera de tolv månaderna? Tolv separata histogram blir svåröverskådligt.
- Som ett alternativ till histogram kan vi använda låddiagram (box plot).
Låddiagram (boxplot)
- Den övre bilden till vänster föreställer ett låddiagram. Låddiagrammet visar fördelningen av dagar med olika vindstyrka i Western Massaschussets.
- Låddiagrammet llustrerar samma data som som det blå histogrammet, men på ett mer sammanfattande sätt.
Låddiagram (boxplot)
- Medan histogrammet ger en mer komplett bild av fördelningen visar låddiagrammet ett antal nyckelmått:
- Medianen
- Q1
- Q3
- Kvartilavståndet
- Värdet av den största och den minsta observationen
Låddiagram (boxplot) - hur det är uppbyggt
- Figuren består av en låda (box), morrhår (whiskers) och en punkt.
- Undre kanten av lådan mäter Q1.
- Övre kanten av lådan mäter Q3.
- Linjen som går genom lådan mäter medianen (Q2).
- Lådans höjd mäter kvartilavståndet (IQR).
Låddiagram (boxplot) - hur det är uppbyggt
- De röda stödlinjerna är inte en del av diagrammet. De är placerade vid \(Q1 - 1.5 \cdot IQR\) respektive \(Q3 + 1.5 \cdot IQR\).
- Morrhåren sträcker sig till det minsta respektive största värde som ligger innanför de röda stödlinjerna.
- Eventuella observationer som ligger utanför stödlinjerna räknas som outliers och ritas ut som punkter. I detta låddiagram har vi en sådan punkt under den nedre röda linjen. Vi har inga outliers i den över delen av diagrammet.
- Diagrammet kan också vara liggande.
Låddiagram - tolkning
Vi använder det vi vet om låddiagram för att utläsa information om vindstyrkan i Western Massaschussets:
- Värdet för Q1 är lite över 0 mph.
- värdet för Q2 omkring 1 mph.
- värdet för Q3 lite över 2 mph.
- Det lägsta värdet är omkring 0 mph.
- Det högsta vädet ligger en bit över 6 mph.
Låddiagram - tolkning
Vi använder det vi vet om låddiagram för att utläsa information om vindstyrkan i Western Massaschussets:
- Medianen ligger närmare Q1 än Q3 och det övre morrhåret är längre än det undre morrhåret. Det talar för att fördelningen är skev åt höger.
- Det finns ett antal höga outliers, men inga låga outliers.
- Obs! Att observationer identfieras som outliers behöver inte betyda att de ska tas bort! Vi bör dock vara medvetna om dem.
Jämför fördelningar med låddiagram
En fördel med låddiagram jämfört med histogram är att flera fördelningar enkelt kan jämföras. Figur 4.3 i De Veaux et al. (2021) visar hur vindstyrkorna i Massaschussets betingade på månad. Vi ser ett tydligt mönster.
![]()
- Det är mer vindstilla och mindre variation under sommaren.
- Notera stjärnan över juni. Denna extrema outlier representerar en tornado.
Numeriska betingade fördelningar - samband och slump
På föreläsning 3 tog vi upp frågan om skillnader mellan grupper i ett datamaterial, och hur vi kan bedöma om skillnaderna beror på slumpen eller på att det finns ett mer generellt samband.
I exemplet på föreläsning 3 hade vi två grupper är personer: de som sov på höger sida och de som som på vänster sida. I en studie var mardrömmar vanligare bland de som sov på vänster sida, och vi ville undersöka om berodde på slumpen.
Vi ställde upp hypotesen att mardrömmarna är oberoende av vilken sida vi sover på, vilket skulle innebära att det är lika troligt att du får en mardröm vilken sida du än sover på.
Numeriska betingade fördelningar - samband och slump
- Vi upprepade ett experiment där vi lät mardrömmarna fördela sig slumpvis mellan de två grupperna, som om vår hypotes var sann. Vi undersökte sedan om studiens resultat verkade troligt givet att hypotesen är sann.
![]()
- Nu ska vi göra samma sak, med den här gången frågar vi oss om skillnaden mellan två numeriska fördelningar beror på slumpen eller inte.
Numeriska betingade fördelningar - samband och slump
Vi mäter hastigheten på bilar som kör längs en gata. De två låddiagrammen visar hastighetsfördelningen för de som kör “ner längs gatan” respektive de som kör “upp längs gatan”.
- Medelhastigheten hos de bilar som kör “upp längs gatan” är 2.53 mph högre än medelhastigheten hos de som kör “ned längs gatan”.
- Betyder det att bilar generellt kör snabbare när de kör “upp längs gatan”, eller beror skillnaden i medelhastighet på slumpen?
Numeriska betingade fördelningar - samband och slump
- Vi vill veta om skillnaden i medehastighet beror på på att bilar i den ena färdriktningen generellt kör snabbare, eller om de olika medehastigheterna är slumpen.
- Vi kan ställa upp hypotesen att hastigheten är oberoende av färdriktningen, det vill säga att skillnaden i medelhastighet beror på slumpen.
Numeriska betingade fördelningar - samband och slump
- Vi gör ett tankeexperiment: Anta att vi inte känner till färdriktningen, så vi slumpar fram körriktningen för varje bil. Hastigheten blir nu oberoende av färdriktningen.
- Efter att varje bil slumpats in i en grupp, där varje grupp är en färdriktning, räknar vi ut medelhastigheten för vardera grupp.
- Vi noterar skillnaden i medelhastighet för de två grupperna.
Numeriska betingade fördelningar - samband och slump
- Nu upprepar vi detta slumpexperiment 10,000 gånger. Figur 4.5 i De Veaux et al. (2021) visar utfallet av 10,000 sådana experiment.
- Vilken slutsats om vår hypotes kan vi dra? Skillnaden i medelhastighet som uppmättes i studien, 2.53 mph, är markerad med en triangel.
![]()
Spridningsdiagram (scatter plot)
- Vi har hittills tittat på diagram som på olika sätt sammanfattar numeriska värden, så som histogram och låddiagram.
- Ibland vill vi ha en bild som visar varje observation. Det kan vi åstadkomma med ett spridningsdiagram (scatter plot).
- Figur 4.6 i De Veaux et al. (2021) visar medelvindstyrkan för varje dag 2011.
![]()
Tidsserier
- På y-axeln ser vi medelvindstyrkan i Western Massaschussets.
- På x-axeln ser vi hur många dagar in på året vi är. Observationerna är alltså ordnade i tidsordning från vänster till höger. Därmed illustrerar diagrammet en tidsserie.
![]()
Tidsserier
- Ofta binder en tidsserieplot ihop punkterna med en linje som gör det lättare att se mönster.
- Intressant att titta efter är
- Trender och säsongsvariationer kan vara viktiga om du vill göra framtidsprognoser.
![]()
Tidsserier - trender
- En trend är en kontinuerlig förändring som sker över tid.
- Den här grafen visar Sveriges bruttonationalprodukt från 1960 till 2020.
- Även om BNP sjunker vissa år är trenden positiv. Om vi drog en rak linje från 1960 till 2020 skulle linjen peka kraftigt uppåt.
![]()
Tidsserier - säsongsvariation
- Exempel på tidsserier som har säsongsvariation är temperaturer.
- Bilden visar temperaturer insamlade mellan 1 februari 2008 och 1 maj 2022 vid tre svenska flygplatser. (Bild från Villani et al. (2022))
![]()
Logaritmer
Följande samband är bra att känna till för att kunna översätta mellan logaritmer och vår ursprungliga skala:
\[y = e^x \Longleftrightarrow \log(y) = x\]
Vi kan också skriva
\[y = e^{log(y)}\]
Uttrycket \(e\) är en konstant med ett värde som är ungefär 2.7.
Exempel
Anta att vi vet att \(\log(a) = 1.2\), och vi vill ha värdet av \(a\). Vi vet då att \(a = e^{\log(a)}\), vilket innebär att
\[a = e^{\log(a)} = e^{1.2} = 3.32\]